4장. 모델 크기와 메모리, 내 맥에 들어갈까?

이 장의 목표 모델 이름만 보고 “내 맥에서 돌까?” 를 30초 만에 가늠할 수 있게 됩니다.

계산식 하나만 외우면 됩니다.

4.1 한 줄 계산식

모델이 메모리에 차지하는 크기는 대략 이렇게 계산합니다.

필요 메모리(GB) ≈ 파라미터 수(B) × 한 숫자의 비트 수 / 8

/ 8 인 이유는 8비트 = 1바이트 이기 때문입니다.

예시.

32B 모델, 한 숫자를 16비트로 저장(FP16)
→ 32 × 16 / 8 = 64GB

32B 모델, 한 숫자를 4비트로 저장(Q4)
→ 32 × 4 / 8 = 16GB

이게 4장의 거의 전부입니다.

4.2 표 한 장으로 정리

파라미터 × 비트 / 8 을 미리 다 계산해 둔 표입니다.

모델 크기	FP16 (16bit)	Q8 (8bit)	Q5 (5bit)	Q4 (4bit)
3B	약 6GB	약 3GB	약 2GB	약 1.5GB
7B	약 14GB	약 7GB	약 4.5GB	약 3.5GB
8B	약 16GB	약 8GB	약 5GB	약 4GB
14B	약 28GB	약 14GB	약 9GB	약 7GB
27B	약 54GB	약 27GB	약 17GB	약 14GB
32B	약 64GB	약 32GB	약 20GB	약 16GB
70B	약 140GB	약 70GB	약 44GB	약 35GB

주의 이 숫자는 모델 가중치만의 크기입니다. 실제 실행할 때는 여기에 여유 메모리가 더 필요합니다.

4.3 실제 메모리는 여기에 +α

실행할 때는 가중치 외에도 다음이 필요합니다.

실사용 메모리 ≈ 가중치 + KV Cache + 런타임 오버헤드 + macOS·앱 메모리

KV Cache 대화가 길어질수록 늘어남 (6장에서 자세히)
런타임 오버헤드 추론 엔진이 기본으로 잡는 메모리
macOS·앱 메모리 보통 4~8GB는 시스템·브라우저·IDE가 씀

거친 어림셈:

실사용 메모리 ≈ 가중치 × 1.3 + 6GB

예시. 32B Q4를 8K 컨텍스트로 돌리면:

가중치 16GB × 1.3 + 6GB ≈ 26~28GB

64GB 맥에서는 여유 있습니다.

70B Q4를 같은 조건으로 돌리면:

35GB × 1.3 + 6GB ≈ 51~52GB

64GB 맥에서 돌긴 도는데 빡빡합니다. 브라우저 켜놓고 IDE 켜놓으면 swap이 발생합니다.

4.4 맥 통합 메모리의 이점

일반 PC에서는

시스템 RAM ≠ GPU VRAM

이 둘이 따로따로 존재합니다.

GPU에 24GB VRAM이 있어도 거기에 안 들어가면 모델이 못 돌거나 극단적으로 느려집니다.

맥은 다릅니다.

통합 메모리(Unified Memory)
= CPU 메모리 = GPU 메모리

CPU도 GPU도 같은 메모리 풀 을 봅니다.

그래서 64GB 맥은 이론상 64GB 가까이를 모델에 할당할 수 있습니다.

실제로는 macOS와 앱들이 좀 잡고 있으니 대략 50GB 정도는 모델에 쓸 수 있다 고 보면 됩니다.

4.5 내 맥 기준 권장 영역

16GB 통합 메모리

후보	권장
3B Q4~Q8	✅
7B Q4	✅ (컨텍스트 8K)
7B Q5/Q6	△ (브라우저 끄고)
14B Q4	△ (가능하지만 빡빡)
32B 이상	❌

18~24GB

후보	권장
7B Q5/Q6	✅
8B Q5/Q6	✅
14B Q4	✅
14B Q5	△

32~36GB

후보	권장
14B Q5/Q6	✅
27B Q4	✅
32B Q4	△ (가능, 컨텍스트 8K 권장)

48GB

후보	권장
27B Q5	✅
32B Q4	✅
32B Q5	△

64GB ★ (이 책의 표준 환경)

후보	권장
32B Q4_K_M	✅ 메인 추천
32B Q5_K_M	✅
32B Q6_K	△
70B Q4	△ (체험용)

96GB+

70B Q4~Q5도 본격 실용 영역입니다.

4.6 30초 메모리 점검 체크리스트

모델 받기 직전에 매번 머릿속으로 한 번씩 돌리세요.

이 모델 몇 B인가?
어떤 양자화인가? (Q4? Q5?)
B × 비트 / 8 으로 가중치 크기 계산
거기에 × 1.3 + 6GB 해서 실사용 메모리 어림
내 맥 통합 메모리에서 빼면 여유가 얼마인가?
여유가 10GB 미만 이면 컨텍스트를 줄이거나 양자화를 한 단계 내림

이 장에서 기억할 한 가지

모델 메모리 = 파라미터 × 비트 / 8 + 여유

한 숫자를 16비트로 저장하면 무겁고, 4비트로 압축하면 메모리는 1/4이 됩니다.

다음 장의 양자화가 바로 이 압축 기술입니다.

손으로 해볼 것

1. 내 맥에서 한 번에 모델 1개 올릴 수 있는 최대 크기 계산

activity monitor(활성 상태 보기) 앱을 열어 메모리 → 사용 중인 메모리 를 확인하세요.

가용 메모리 = 통합 메모리 - 사용 중인 메모리 - 안전 마진 4GB

이게 모델에 쓸 수 있는 대략적인 한계입니다.

가용 메모리를 × 1 로 보면 가중치 한도가 나옵니다.

2. 모델 후보 3개 골라보기

Hugging Face에서 아무 양자화 모델을 골라 파일 크기를 확인해보세요.

예를 들어:

Qwen3-7B-Instruct-Q4_K_M.gguf
Qwen3-14B-Instruct-Q4_K_M.gguf
Qwen3-32B-Instruct-Q4_K_M.gguf

내 맥에 들어갈 후보를 3개 적어두세요. 17장(Ollama)에서 실제로 받습니다.

다음 장에서는 Q4, Q5, Q8 같은 양자화의 정체 와 어떤 양자화를 받아야 하는가 를 봅니다.

이걸 알면 모델 파일 이름이 모두 읽힙니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI